اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn

Authors

رضا خدایی

دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر محمدعلی بالافر

دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر سیدناصر رضوی

دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر

abstract

بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخاب بهترین اسناد برای استخراج کلمات مرتبط برای بسط، موضوع مهمی در روش های بسط پرس وجو هست. در این مقاله، از خوشه بندی اسناد شبه بازخورد (cprf) حاصل از نتایج اولیه، بر اساس شباهت مبتنی بر کلمه برای قرار دادن شبیه ترین اسناد کنار هم استفاده می شود. تعدادی از خوشه ها طبق محتوایشان به عنوان خوشه های بازخورد انتخاب می شوند و از خوشه های بازخورد، اسناد رتبه بالا به عنوان اسناد بازخورد انتخاب می شوند. سپس، یک سند ترکیبی از روی اسناد انتخابی تشکیل می شود و کلمات سند ترکیبی بر اساس تابع رتبه بندی tf-idf مرتب می شوند. بعد، کلمات رتبه بالا برای بسط انتخاب می شوند. آزمایش های انجام گرفته روی مجموعه داده پزشکی med نشان می دهد روش پیشنهادی معیار متوسط میانگین دقت (map) بالاتری نسبت به روش بازخورد شبه مرتبط (prf) دارد.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

بسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو

بسط پرس‌وجو به‌عنوان یکی از روش‌های انطباق پرس‌وجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش می‌دهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرس‌وجو است که فرض می‌کند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرس‌وجو هستند و کلمات بسط را از این اسناد انتخاب می‌کند. درحالی‌که ممکن است اسناد نامرتبط به پرس‌وجو در اسناد رتبه‌بالا وجود داشته باشد. روش‌هایی برای انتخاب اسناد مرتبط و نادیده گرفتن...

full text

اثربخشی بسط پرس‌وجو مبتنی بر خوشه‌بندی اسناد شبه‌بازخورد با الگوریتم K-NN

بسط پرس‌وجو یکی از روش‌های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه‌مرتبط (PRF) فرض می‌کند که اسناد رتبه‌بالا از نتایج اولیه بازیابی‌شده مرتبط به پرس‌وجو است و تعدادی کلمه مرتبط را از اسناد رتبه‌بالا برای بسط انتخاب می‌کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش‌هایی برای انتخاب بهترین اسناد به‌عنوان منبع برای انتخاب کلمه بسط سوق می‌دهد که انتخا...

full text

بهبود الگوریتم خوشه بندی مشتریان برای توزیع قطعات یدکی با رویکرد داده کاوی (k-means)

Customer classification using k-means algorithm for optimizing the transportation plans is one of the most interesting subjects in the Customer Relationship Management context. In this paper, the real-world data and information for a spare-parts distribution company (ISACO) during the past 36 months has been investigated and these figures have been evaluated using k-means tool developed for spa...

full text

خوشه بندی تصاویر پوشاک با استفاده از پردازش تصویر و الگوریتم K-means

امروزه صنعت پوشاک و مد صنعتی جهانی است و اکثر کشورها روی این صنعت سرمایه گذاری می کنند. در سالهای اخیر با گسترش تجارت الکترونیک و با توجه به مزیت های آن مثل قابل استفاده بودن کالاها با هزینه کمتر، انتخاب گسترده تر و صرفه جویی در زمان، انبوه مردم مایحتاج خود را از وبگاه ها و فروشگاه های اینترنتی به جای مغازه ها تهیه می کنند. این موضوع، نیاز به سامانه ای را ایجاد کرده که بتواند پوشاک را شناسایی و...

full text

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

full text

یک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر

  The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...

full text

My Resources

Save resource for easier access later


Journal title:
مهندسی برق دانشگاه تبریز

جلد ۴۶، شماره ۱، صفحات ۱۴۳-۱۵۱

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023